惯用表达式(IES)在自然语言中起重要作用。在本文中,我们研究了惯用句子解释(ISP)的任务,旨在通过用IE用文字解释来解释一个句子。缺乏与惯用语文平行句子的大型语料库是这项任务的主要挑战,我们考虑了两个单独的解决方案。首先,我们向ISP提出了一个无人监督的方法,它利用IE的上下文信息和定义,不需要并行句子训练集。其次,我们提出了一种弱监督的方法,使用后翻来的方法与IE共同执行释义和生成句子,以扩大小规模并行句子训练数据集。该研究的其他重要衍生物包括一种模型,该模型将句子中的文字短语替换为一种与IE生成惯用表达式和具有惯用/文字句对的大规模并行数据集。拟议的解决方案与竞争性基线相比的有效性在Bleu超过5.16点的相对增益中观察到超过8.75点,在使用自动和手动的并行数据集上经验上验证生成的句子时,Sari超过19.57点评估。我们展示了ISP作为EN-DE机器翻译中的预处理步骤的实用实用性。
translated by 谷歌翻译
Event cameras, offering high temporal resolutions and high dynamic ranges, have brought a new perspective to address common challenges (e.g., motion blur and low light) in monocular depth estimation. However, how to effectively exploit the sparse spatial information and rich temporal cues from asynchronous events remains a challenging endeavor. To this end, we propose a novel event-based monocular depth estimator with recurrent transformers, namely EReFormer, which is the first pure transformer with a recursive mechanism to process continuous event streams. Technically, for spatial modeling, a novel transformer-based encoder-decoder with a spatial transformer fusion module is presented, having better global context information modeling capabilities than CNN-based methods. For temporal modeling, we design a gate recurrent vision transformer unit that introduces a recursive mechanism into transformers, improving temporal modeling capabilities while alleviating the expensive GPU memory cost. The experimental results show that our EReFormer outperforms state-of-the-art methods by a margin on both synthetic and real-world datasets. We hope that our work will attract further research to develop stunning transformers in the event-based vision community. Our open-source code can be found in the supplemental material.
translated by 谷歌翻译
Recently, Bird's-Eye-View (BEV) representation has gained increasing attention in multi-view 3D object detection, which has demonstrated promising applications in autonomous driving. Although multi-view camera systems can be deployed at low cost, the lack of depth information makes current approaches adopt large models for good performance. Therefore, it is essential to improve the efficiency of BEV 3D object detection. Knowledge Distillation (KD) is one of the most practical techniques to train efficient yet accurate models. However, BEV KD is still under-explored to the best of our knowledge. Different from image classification tasks, BEV 3D object detection approaches are more complicated and consist of several components. In this paper, we propose a unified framework named BEV-LGKD to transfer the knowledge in the teacher-student manner. However, directly applying the teacher-student paradigm to BEV features fails to achieve satisfying results due to heavy background information in RGB cameras. To solve this problem, we propose to leverage the localization advantage of LiDAR points. Specifically, we transform the LiDAR points to BEV space and generate the foreground mask and view-dependent mask for the teacher-student paradigm. It is to be noted that our method only uses LiDAR points to guide the KD between RGB models. As the quality of depth estimation is crucial for BEV perception, we further introduce depth distillation to our framework. Our unified framework is simple yet effective and achieves a significant performance boost. Code will be released.
translated by 谷歌翻译
The advances in deep learning (DL) techniques have the potential to deliver transformative technological breakthroughs to numerous complex tasks in modern power systems that suffer from increasing uncertainty and nonlinearity. However, the vulnerability of DL has yet to be thoroughly explored in power system tasks under various physical constraints. This work, for the first time, proposes a novel physics-constrained backdoor poisoning attack, which embeds the undetectable attack signal into the learned model and only performs the attack when it encounters the corresponding signal. The paper illustrates the proposed attack on the real-time fault line localization application. Furthermore, the simulation results on the 68-bus power system demonstrate that DL-based fault line localization methods are not robust to our proposed attack, indicating that backdoor poisoning attacks pose real threats to DL implementations in power systems. The proposed attack pipeline can be easily generalized to other power system tasks.
translated by 谷歌翻译
深度估计对于各种重要的现实世界应用至关重要,例如自动驾驶。但是,在高速场景中,它遭受了严重的性能退化,因为传统相机只能捕获模糊的图像。为了解决这个问题,Spike摄像头旨在以高框架速率捕获像素的亮度强度。但是,使用传统的单眼或立体声深度估计算法,使用尖峰摄像机的深度估计仍然非常具有挑战性,这些算法基于光度一致性。在本文中,我们提出了一种新型的不确定性引导深度融合(UGDF)框架,以融合Spike摄像机的单眼和立体声深度估计网络的预测。我们的框架是由于立体声尖峰深度估计在近距离取得更好的结果,而单眼尖峰深度估计获得了更好的结果。因此,我们引入了具有联合培训策略的双任务深度估计结构,并估算了分布式不确定性以融合单眼和立体声结果。为了证明尖峰深度估计比传统的摄像头深度估计的优势,我们为一个名为CitySpike20k的尖峰深度数据集,其中包含20k配对的样品,以进行尖峰深度估计。 UGDF在CitySpike20k上取得了最新的结果,超过了所有单眼或立体声尖峰深度估计基线。我们进行了广泛的实验,以评估我们方法对CitySpike20k的有效性和概括。据我们所知,我们的框架是第一个用于尖峰摄像头深度估算的双任务融合框架。代码和数据集将发布。
translated by 谷歌翻译
神经形态尖峰摄像机以生物启发的方式生成具有高时间分辨率的数据流,该方式在自动驾驶等现实世界应用中具有巨大的潜力。与RGB流相反,Spike流具有克服运动模糊的固有优势,从而导致对高速对象的更准确的深度估计。但是,几乎不可能以监督的方式培训尖峰深度估计网络,因为获得时间密集的尖峰流的配对深度标签非常费力和挑战。在本文中,我们没有构建带有完整深度标签的Spike流数据集,而是以不受监督的方式从开源RGB数据集(例如Kitti)和估算峰值深度转移知识。此类问题的关键挑战在于RGB和SPIKE模式之间的模态差距,以及标记的源RGB和未标记的目标尖峰域之间的域间隙。为了克服这些挑战,我们引入了无监督的尖峰深度估计的跨模式跨域(BICROSS)框架。我们的方法通过引入中介模拟的源尖峰域来缩小源RGB和目标尖峰之间的巨大差距。要具体而言,对于跨模式阶段,我们提出了一种新颖的粗到精细知识蒸馏(CFKD),将图像和像素级知识从源RGB转移到源尖峰。这种设计分别利用了RGB和SPIKE模式的大量语义和密集的时间信息。对于跨域阶段,我们引入了不确定性引导的均值老师(UGMT),以生成具有不确定性估计的可靠伪标签,从而减轻了源尖峰和目标尖峰域之间的变化。此外,我们提出了一种全局级特征对齐方法(GLFA),以对齐两个域之间的特征并生成更可靠的伪标签。
translated by 谷歌翻译
在我们最近在加纳被动饮食监测的饮食评估现场研究中,我们收集了超过25万件野外图像。该数据集是一种持续的努力,旨在通过被动监控摄像头技术在低收入和中等收入国家中准确测量单个食物和营养摄入量。目前的数据集涉及加纳农村地区和城市地区的20个家庭(74个受试者),研究中使用了两种不同类型的可穿戴摄像机。一旦开始,可穿戴摄像机会不断捕获受试者的活动,该活动会产生大量的数据,以便在进行分析之前清洁和注释。为了简化数据后处理和注释任务,我们提出了一个新颖的自学学习框架,以将大量以自我为中心的图像聚集到单独的事件中。每个事件都由一系列时间连续和上下文相似的图像组成。通过将图像聚集到单独的事件中,注释者和营养师可以更有效地检查和分析数据,并促进随后的饮食评估过程。在带有地面真实标签的固定测试套装上验证,拟议的框架在聚集质量和分类准确性方面优于基准。
translated by 谷歌翻译
活动相机是一种新型的生物启发的视觉传感器。当亮度变化超过预设阈值时,传感器会异步生成事件。有效事件的数量直接影响基于事件的任务的性能,例如重建,检测和识别。但是,当在低亮度或缓慢的场景中,事件通常稀疏且伴随着噪声,这对基于事件的任务构成了挑战。为了解决这些挑战,我们提出了一个事件的时间上取样算法,以产生更有效和可靠的事件。我们算法的主要思想是在事件运动轨迹上生成上采样事件。首先,我们通过对比度最大化算法来估计事件运动轨迹,然后通过时间点过程对事件进行更采样。实验结果表明,上采样事件可以提供更有效的信息并改善下游任务的性能,例如提高重建图像的质量并提高对象检测的准确性。
translated by 谷歌翻译
基于观察到的图,对在关系结构数据上应用机器学习技术的兴趣增加了。通常,该图并不能完全代表节点之间的真实关系。在这些设置中,构建以观测图为条件的生成模型可以考虑图形不确定性。各种现有技术要么依赖于限制性假设,无法在样品中保留拓扑特性,要么在较大的图表中昂贵。在这项工作中,我们介绍了用于通过图形构建分布的节点复制模型。随机图的采样是通过替换每个节点的邻居的邻居来进行采样的。采样图保留图形结构的关键特征,而无需明确定位它们。此外,该模型的采样非常简单,并与节点线性缩放。我们在三个任务中显示了复制模型的有用性。首先,在节点分类中,基于节点复制的贝叶斯公式在稀疏数据设置中实现了更高的精度。其次,我们采用建议的模型来减轻对抗攻击对图形拓扑的影响。最后,将模型纳入推荐系统设置,改善了对最新方法的回忆。
translated by 谷歌翻译
当1)培训数据集的类别分布P(Y)时,机器学习模型无法在现实世界应用程序上表现良好。现有方法无法处理存在两个问题的方案,但是对于现实世界应用程序来说,这很常见。在这项研究中,我们向前迈出了一步,研究了域转移下的长尾分类问题。我们设计了三个新颖的核心功能块,包括分布校准的分类损失,视觉语义映射和语义相似性引导性增强。此外,我们采用了一个元学习框架,该框架集成了这三个区块,以改善对看不见的目标域的域概括。为此问题提出了两个新的数据集,称为AWA2-LTS和Imagenet-LTS。我们在两个数据集上评估了我们的方法,并且广泛的实验结果表明,我们提出的方法可以比最新的长尾/域概括方法和组合实现优越的性能。源代码和数据集可以在我们的项目页面https://xiaogu.site/ltds上找到。
translated by 谷歌翻译